講義用ノート | ( 平成 29 年度夏学期 )| ビジネス統計学

(1)

ビジネス統計学

(

^平成

29

^{年度夏学期}

)

—

^{講義用ノート}

—

谷口説男

(

^{九州大学基幹教育院}

) (

平成

29

年

5

月

17

日版

)

0This note is c⃝2017 by Setsuo Taniguchi. It may be used for personal or classroom purposes, but not for commercial purposes.

(2)

(3)

i

はじめに

統計学の歴史

(http://www.stat.go.jp/teacher/c2epi1.htm

から)

•

データの収集

“国勢調査”=国の実情を知る…徴兵，徴税，福祉

statistics (英) ⇐ statistik (独) ⇐ status (ラテン=国家・状態)

歴史は古い…古代エジプト，ローマ帝国

※

IBM

はもとは国勢調査用紙を作ってた．

•

データから規則性を見出すアマゾン，顧客管理，…

ICT

の発展で非常に扱いやすくなった

♢

ハレー

(1956-1742)

：死亡記録から死亡年齢を解析．終身年金価格決定に

寄与．

♢

ナイチンゲール

(1820-1910)：戦死者・傷病者のデータ解析により，治療・

衛生状況が死因であることを見出す

(見やすい円グラフ)．

•

確率的事象をとらえる

自然科学，工学，耐久検査，品質管理，

数理統計学

(データ) = (真の値) + (誤差)

♢

ドゥ・モワブル

(年金論→保険数理)

♢

ベルヌーイ

(天然痘の罹病率，死亡率→数理疫学)

♢

オイラー，ラプラス

(

フランスの人口推計

)

この講義では…

エクセルを使って実際に計算をしてみます．

PC

必携です．

必要な資料は

http://www.artsci.kyushu-u.ac.jp/

^∼

se2otngc/

(4)

1

相関係数

1

1.1

相関係数

. . . . 1 1.2

散布図

. . . . 3

2

単回帰分析

4

2.1

単回帰分析

. . . . 4 2.2

回帰分析の応用

. . . . 6

3

確率論速習

10

3.1

確率変数

. . . . 10 3.2

確率の求め方

. . . . 11 3.3

正規分布

. . . . 12

4

差はあるのか?—平均の差の検定

14

4.1

検定の考え方

. . . . 14 4.2

モデルの導入

. . . . 15 4.3

片側検定

. . . . 18

5

差はあるのか?—独立性の検定

20

5.1

サンドイッチの嗜好

. . . . 20

5.2

ピアソンの

χ

²

(カイ二乗)

独立性検定

. . . . 21

5.3

適合度検定

. . . . 22

6

組み合わせで売れ行きは変わる?—交互作用の検定

24

6.1

はじめに

. . . . 24

6.2

グラフでは

. . . . 24

6.3

分散分析—交互作用

. . . . 24

(5)

1

相関係数

1

1.

相関係数

1.1.

相関係数

1.1.1.

データの例

最高気温平均気温最低気温アイスクリーム売上げ

1

月

9.9 6.6 3.5 780

2

月

11.1 7.4 4.1 950

3

月

14.4 10.4 6.7 1280

4

月

19.5 15.1 11.2 1255

5

月

23.7 19.4 15.6 1290

6

月

26.9 23 19.9 1650

7

月

30.9 27.2 24.3 2000

8

月

32.1 28.1 25 2430

9

月

28.3 24.4 21.3 1200

10

月

23.4 19.2 15.4 1150

11

月

17.8 13.8 10.2 1210

12

月

12.6 8.9 5.6 1045

1.1.2.

データの一般形

(x

1

, y

1

), . . . , (x

n

, y

n

)

• (1

月最高気温,

1

月売上げ), . . . ,

(12

月最高気温,

12

月売上げ)

• (1

月平均気温,

1

月売上げ), . . . ,

(12

月平均気温,

12

月売上げ)

• (1

月最低気温

, 1

月売上げ

), . . . , (12

月最低気温

, 12

月売上げ

) 1.1.3.

相関係数を決めるための量

S

xx

=

∑

n i=1

(x

i

− x

n

)

²

, S

_xy

=

∑

n i=1

(x

_i

− y

_n

)(y

_i

− y

_n

),

S

_yy

=

∑

n i=1

(y

_i

− y

_n

)

²

,

ただし，x_n

= x

1

+ · · · + x

n

n , y

_n

= y

1

+ · · · + y

n

n ,

1.1.4.

相関係数

r

_xy

r

xy

= S

_xy

√ S

xx

√ S

yy

(6)

1.1.5.

図形的には

n = 2

とする．

⃗a = (x

1

− x, x

2

− x), ⃗b = (y

1

− y, y

2

− y)

とおけば，

S

xy

= ⃗a · ⃗b, S

xx

= ∥ ⃗a ∥ , S

yy

= ∥ ⃗b ∥ .

したがって，θ

= ⃗a

と

⃗b

のなす角とすると

r

_xy

= ⃗a · ⃗b

∥ ⃗a ∥ ∥ ⃗b ∥ = cos θ

となる．

したがって，

r

xyはデータの散らかり方が「どれだけ同じ向きを向いているか?」を表す指標である．

1.1.6. (a) y

1

= x

1

, . . . , y

n

= x

nならば，r_xy

= 1.

(b) y

1

= − x

1

, . . . , y

n

= − x

nならば，r_xy

= − 1 (c) y

i

= ax

i

+ b

ならば，

r

xy

=

{

1 (a > 0)

− 1 (a < 0) . 1.1.7. x

と

y

に強い関係があっても

r

xy

= 1

とはならない．

例

x

₁

, . . . , x

₁₀

, y

₁

, . . . , y

₁₀

, y

_i

= x

⁴_i のとき

X 9 8 7 10 13

Y 6561 4096 2401 10000 28561

X 11 9 8 12 9

Y 14641 6561 4096 20736 6561 r

_xy

= 0.972

♠

エクセルで確かめてみよう

! 1.1.8.

エクセルでやってみるには

• S

_xxは関数

VAR.P([x

の範囲])*(データの個数)で求まる．

• S

yyは関数

VAR.P([y

の範囲])*(データの個数)で求まる．

• S

xyは関数

COVARIANCE.P([x

の範囲],[yの範囲])*(データの個数

)

で求まる．

• r

_xyは

[S

_xy

]/(SQRT([S

_xx

])*SQRT([S

_yy

]))

で求まる．

注：[S_xy

]

は

S

xyの値を求めたセルを表わす

•

より簡単に

r

xyは

CORREL([x

の範囲

],[y

の範囲

])

としても求まる．

注意

1

：

VAR

は

variance

の略であり，

CORREL

は

correlation

の略である．

注意

2： .P

というおまじないは「population」に由来している．エクセルには，もう一つ，.Sがつくものもある．こちらは「sample」に由来しており，「不偏」という名の付くものと対応している．

(7)

1

相関係数

3

1.1.9.

気温とアイスクリーム売上げの相関係数

最高気温

0.980

，平均気温

0.974

，最低気温

0.958 ♠

エクセルで確かめてみよう

1.2.

散布図

視覚的に見るには，エクセルの「散布図」を使ってみるとよい．

♠

データ領域を選択し，「挿入」→「グラフ」→「散布図」と選べばよい．

(8)

2.

単回帰分析

2.1.

単回帰分析

2.1.1.

問題平均気温とアイスクリームの売り上げの関係をより詳しく説明した

い．たとえば，気温

20

度ならどの程度アイスクリームは売れるのか?

平均気温アイスクリーム売上げ

6.6 780

7.4 950

10.4 1280

15.1 1255

19.4 1290

23 1650

27.2 2000

28.1 2430

24.4 1200

19.2 1150

13.8 1210

8.9 1045

2.1.2.

アイディア散布図に上手に直線

y = ax + b

を引いて

x = 20

を代入する!

a, b

はどう求める

?

2.1.3.

回帰直線

(x

1

, y

1

), . . . , (x

n

, y

n

)

をデータとする．

x = x

1

+ · · · + x

n

n , y = y

1

+ · · · + y

n

n ,

S

xy

=

∑

n i=1

(x

i

− x)(y

i

− y), S

xx

=

∑

n i=1

(x

i

− x)

²

, b

a = S

xy

S

_xx

, b b = y − b a x

(9)

2

単回帰分析

5

とおくと，

a = b a

，

b = b b

が求める

a, b

である．

直線

y = b ax + b b

を回帰直線と呼ぶ．

2.1.4.

最小二乗法

Q(a, b) =

∑

n i=1

{ y

i

− (ax

i

+ b) }

²

(

残差

)

を

最小にする．つぎの事実を使って変形していく：

(

通常の統計の教科書に書いてある「偏微分」を使う説明は

“

数学的には難しい

”)

S

xx

= ∑

i

{ x

²_i

− 2xx

i

+ (x)

²

} = ∑

i

x

²_i

− 2nx

²

+ nx

²

= ∑

i

x

²_i

− nx

²

, S

_xy

= ∑

i

{ x

_i

y

_i

− xy

_i

− yx

_i

+ xy } = ∑

i

x

_i

y

_i

− nxy − nxy + nxy

= ∑

i

x

i

y

i

− nx y, S

yy

= ∑

i

y

_i²

− ny.

変形は，つぎの通り：

∑

i

{ y

i

− (ax

i

+ b) }

²

= ∑

i

(y

i

− ax

i

− b)

²

= ∑

i

{ y

_i²

+ x

²_i

a

²

+ b

²

− 2x

i

y

i

a + 2x

i

ab − 2y

i

b }

= nb

²

+ 2n(xa − y)b + (∑

i

x

²_i

)

a

²

− 2 (∑

i

x

i

y

i

) a + ∑

i

y

²_i

= n { b + (xa − y) }

²

− n(xa − y)

²

+ (∑

i

x

²_i

)

a

²

− 2 (∑

i

x

_i

y

_i

)

a + ∑

i

y

_i²

= n { b + (xa − y) }

²

+ (∑

i

x

²_i

− nx

²

)

a

²

− 2 (∑

i

x

i

y

i

− nx y )

a + ∑

i

y

²_i

− ny

²

= n { b + (xa − y) }

²

+ S

xx

a

²

− 2S

xy

a + S

yy

= n { b + (xa − y) }

²

+ S

xx

( a − S

xy

S

_xx

)

2

− S

_xy²

S

_xx

+ S

yy

.

二つの

( · · · )

²の項が

0

となるときが最小である．

(10)

2.1.5.

エクセルで

a, b

を求める

1)

実際に

S

xx

, S

xy

, x, y

を計算してみる．(手間がかかる．)

• S

xxは

VAR.P([x

の範囲

**])*(**

データの個数

)

• S

xyは

COVARIANCE.P([x

の範囲],[yの範囲])*(データの個数)

• x

は

AVARAGE([x

の範囲

])

• y

は

AVARAGE([y

の範囲])

• a = [S

_xy

]/[S

_xx

]，b = [y] − [a] ∗ [y]

注：[

· ]

はそれぞれの値を計算したセルを表わす．

2)

エクセルの直接的な関数をつかう．

• a

は

INTERCEPT([y

の範囲],[xの範囲])

• b

は

INTERCEPT([y

の範囲],[xの範囲])

3)

グラフに直線を引く

!

「散布図」

-「近似曲線」 -

「その他のオプション」「グラフに数式を表示する」

2.1.6.

最高気温でやってみよう

2.2.

回帰分析の応用

2.2.1.

トレンド分析

損保会社の累積支払保険金の増加の様子

(トレンド)

を線形回帰する．

1 2 3 4 5 6 7 8 9 10

117 208 335 433 538 701 803 857 966 1176

○ 回帰直線

y = 113.4545x − 10.6

○

11

年目の累積支払保険金：

1237.4

○

11

年目に支払うであろう金額：

1237.4 − 1176 = 61.4

(11)

2

単回帰分析

7

○ やってみよう

1 2 3 4 5 6 7 8 9 10

239 476 719 953 1259 1500 1528 1673 2235 2375 2.2.2.

ロジスティック回帰

(もどき)

市場での占有率は，技術進展を繰り返せばどんどん上がるが当然

100%

を超えない；

○

y = 1

1 + e

^ax+b という形

(ロジスティック)

をしている．

※ 一般のロジスティック回帰では分子は

1

でなく未知の

K

となっており，

これを求めることも問題となる．

○ このデータは次の通り：

1 2 3 4 5

0.006425725 0.011929039 0.013588838 0.031338532 0.040913811

6 7 8 9 10

0.05212115 0.080896291 0.135832283 0.15159588 0.237454253

11 12 13 14 15

0.297813165 0.341376055 0.520958623 0.545791293 0.627789932

16 17 18 19 20

0.719939233 0.802076416 0.859232933 0.908140584 0.942957833

21 22 23 24 25

0.950664594 0.965184638 0.979148139 0.986842793 0.992209042

26 27 28 29 30

0.992894015 0.996895595 0.997354583 0.998558411 0.998587263

○

z = ln ( 1

y − 1

)

と変形し，z

= ax + b

という回帰曲線を求める．

※

ln x

は

x = e

^zとなる

z

を表す．エクセルでは

LN

を用いる．

※ エクセルで

LOG

は

log

₁₀のこと．

(12)

○

a = 0.404, b = 5.291

となる．よって，ロジスティック回帰曲線は

y = 1

1 + e

⁻0.404x+5.291 となる．

1 2 3 4 5

0.064790694 0.090423841 0.111418814 0.142571342 0.211331758

6 7 8 9 10

0.288737166 0.355482215 0.368020098 0.533691118 0.589594203

11 12 13 14 15

0.606063121 0.753918853 0.824012705 0.857759485 0.891809752

16 17 18 19 20

0.923783022 0.892751872 0.938201537 0.97154412 0.981719392

2.2.3.

多項式回帰

過去

10

年間の累積支払保険金の半年ごとの額は次のようになっていた．

0.5 1 1.5 2 2.5 3 3.5

5.06 6.23 8.65 13.32 17.98 23.13 30.19

4 4.5 5 5.5 6 6.5 7

36.47 50.27 59.37 73.24 86.27 101.47 103.06

7.5 8 8.5 9 9.5 10

125.92 139.58 160.08 184.41 192.1 225.37

グラフに書いてみると

(13)

2

単回帰分析

9

データは

2

次関数的に増加していっているように見える．あてはまる回帰曲線は

y = ax

²

+ b

のような

2

次関数かもしれない．

※ 一般の多項式関数での近似は多重回帰分析が必要になる．

○

z = x

²を導入し，

y = az + b

となる回帰直線を求める．

○

a = 2.16, b = 4.56

であり，y

= 2.16x

²

+ 4.56

が求める回帰曲線となる．

1 2 3 4 5 6 7

7.24 22.85 47.88 82.42 132.77 185.15 256.24

8 9 10 11 12 13 14

324.32 410.69 521.63 618.1 757.69 888.11 1024.46

15 16 17 18 19 20

1137.92 1283.49 1460.3 1654.67 1844.63 2091.71 2.2.4.

その他の関係

(a) y = bx

^a →

ln y = ln b + a ln x (b) y = b exp(ax)

→

ln y = ln b + ax

(c) y = b + a ln x (d) y = x

bx + a

→

1 y = b + a 1 x (e) y = 1

ax + b

→

1 y = ax + b (f) y = a + b

x

(g) y = exp(a + bx)

1 + exp(a + bx)

→ ロジスティック

(

もどき

)

(14)

3.

確率論速習

3.1.

確率変数

3.1.1.

違うものですか?

・1枚のコインを投げて「裏，表」を見る

・赤玉，白玉

10

個ずつが入った袋から玉を抜き出し「赤，白」を見る・サイコロを投げて出目が「奇数，偶数」を見る

♢

「目くらまし」からベールをはぎ取る

⇒二種類のものを代表するのは「

0

，

1

」⇔「数字」

3.1.2.

確率変数

X :

知りたいのは確率：

a

より小さいという事象

{ X ≦ a }

の確率

P(X ≦ a) 3.1.3.

【例】

(a)

コイン投げ；Xは表が出たとき

0，裏が出たとき 1

とする．

P(X ≦ a) =

 



 

0 (a < 0)

1

2

(0 ≦ a < 1) 1 (a ≧ 1) (b)

サイコロの出た目

X;

P(X ≦ a) =

 

 

 

 



0 (a < 1)

1

6

(1 ≦ a < 2)

2

6

(2 ≦ a < 3)

3

6

(3 ≦ a < 4)

4

6

(4 ≦ a < 5)

5

6

(5 ≦ a < 6) 1 (a ≧ 6)

(c)

鉛筆を回し

y

軸となす角度

X;

P(X ≦ a) =

_2π^a

(0 ≦ a ≦ 2π) 3.1.4.

なぜ確率変数?

(a) (データ)=(真の値)

＋

“誤差”

(b) “誤差”

をどう扱う? ⇒ 値の様子の確からしさは分かる

(c)

「確からしさは分かる」=モデルを立てて議論する最小の前提

(15)

3

確率論速習

11

3.2.

確率の求め方

3.2.1.

確率は面積確率は全体の面積が

1

の図形にに占める事象の面積．

3.2.2.

積分

P(X ≦ a) =

∫

a

−∞

f (x)dx

(a)

積分

(1)

グラフ

y = f (x)

の囲む面積

∫

a b

f (x)dx =

緑の領域の面積計算方法:幅の狭い長方形で近似する

∑

n k=1

f (

^(a⁻_n^b)k

) × a − b n

n

−→

→∞

∫

a b

f (x)dx (b)

積分

(2)b → ∞

∫

a b

f (x)dx

^b

−→

^→∞

∫

a

−∞

f (x)dx

(16)

3.3.

正規分布

3.3.1.

正規分布

g(x; µ, σ) = 1

√ 2πσ

²

e

⁻^(x−µ)2^2σ² とおく．

P(X ≦ a) =

∫

a

−∞

g(x; µ, σ)dx

となるとき，確率変数

X

は平均

µ

，分散

σ

² の正規分布にしたがうという

(記号 X ∼ N (µ, σ

²

))．

3.3.2.

身近な

e

^x 年利

x

で預金．年

n

回の利息

(複利)．1

年後には

(

1 + x n

)

n

倍

n → ∞

とする

(連続複利)

と

e

^x

エクセルで試してみよう! (EXP(x)との比較)

x 1 0.1 0.3 4

exp(x) 1 5 .. .

100,000,000

(17)

3

確率論速習

13

3.3.3.

標準化

X ∼ N(µ, σ

²

)

ならば，

X − µ

σ ∼ N(0, 1) ( ∵ )

簡単な変数変換です…

P

( X − µ

σ ≦ a

)

= P(X ≦ µ + σa) =

∫

µ+σa

−∞

√ 1

2πσ

²

e

⁻^(x−µ)2^2σ²

dx

=

∫

a

−∞

√ 1 2π e

⁻^y

2 2

dy

(

y = x − µ σ

) . 3.3.4.

エクセルで計算するには…

X ∼ N (0, 1)

のとき；

(a) P(X ≦ a) = NORM.S.DIST(a,TRUE)

(b) P(X ≦ a) = α

となる

a; a = NORM.S.INV(α)

(18)

4.

差はあるのか

?—

平均の差の検定

4.1.

検定の考え方

4.1.1.

問題

• 2

種類の工程で

X

工程，Y工程で製品を作る．

• Y

工程の方が経費が掛かる．

• X

工程で

100

個，Y工程で

80

個試作してみた．

• X

工程で作った製品の平均寿命は

1

万時間，Y工程で作った製品の平均寿命は

1

万

1

千時間であった．

もし，この

1

万時間と

1

万

1

千時間に「差がない」と言えるならば，

Y

工程を採用できる．

4.1.2.

アプローチ

(a) “平均の差は 0

という仮定”をおく．

(b)

確からしさ

95%で考えることにする．

(c) | “平均の差”

から作られる量

| ≦ a

となる確からしさが

95%となる a

を見つける．

(d) |

平均の差

11000 − 10000 = 1000

から作られる量

| > a

⇒

5%しか起きないことが起きている

⇒ 仮定が間違っている ⇒ 「差はある」

※ 背理法もどき

;

「√

2は有理数でない．」√

2は有理数と仮定する．すると，√

2 =^p_q (p, qは1以外に共通の約数を持たない)と表現できる．両辺を二乗すると2 =^p_q²₂ となる．q²倍すれば，2q²=p² である．これよりpは2を約数として持つ．よって，p= 2rと表現できる．これを代入すると，2q²= 4r²となる．両辺を2で割ると，q²= 2r²を得る．これよりqは2を約数として持つ．以上より，pとqは共通の約数2を持つ．これは矛盾である．よって，√

2は有理数ではない．

4.1.3.

統計学の言葉では

(a)

帰無仮説

H

₀

(b)

有意水準

α；確からしさ 1 − α

で考える

(c)

どのようなモデルを考えるかによる

(d)

帰無仮説を棄却する

(19)

4

15

4.2.

モデルの導入

4.2.1.

モデル

X

工程の試作品の個々の寿命

X

₁

, . . . , X

₁₀₀，Y工程の試作品の個々の寿命

Y

₁

, . . . , Y

₈₀は

X

_i

= (真の寿命) + (誤差)

_i

= µ

_X

+ e

_i

Y

j

= (

真の寿命

) + (

誤差

)

j

= µ

Y

+ E

j

となっている．

さらに，

e

1

, . . . , e

100

, E

1

, . . . , E

80は独立で

∼ N(0, σ

²

)

．

4.2.2.

正規分布にかかわる事実

(a) U ∼ N(µ

U

, σ

_U²

)，V ∼ N (µ

V

, σ

_V²

)

独立

⇒

U + V ∼ N (µ

U

+ µ

V

, σ

²_U

+ σ

_V²

)

(b) W ∼ N (µ, σ

²

)

⇒

aW ∼ N (aµ, a

²

σ

²

), W − µ

σ ∼ N (0, 1) (c) Z

1

, . . . , Z

n

(独立， ∼ N (µ, σ

²

))

⇒

Z

n

= Z

1

+ · · · + Z

n

n ∼ N

( µ, σ

²

n )

4.2.3. X

工程，Y工程ならば

X

100

∼ N (

µ

X

, σ

²

100 )

, Y

80

∼ N (

µ

Y

, σ

²

80 ) X

100

− Y

80

∼ N

(

µ

X

− µ

Y

, σ

²

( 1

100 + 1 80

)) . (a)

帰無仮説『H₀；µ_X

= µ

_Y』の下では

X

100

− Y

80

∼ N (

0, σ

²

( 1

100 + 1 80

))

∴ X

₁₀₀

− Y

₈₀

√ σ

²

( 1 100 + 1

80 ) ∼ N(0, 1)

[標準正規分布にかかわる事実] Z ∼ N(0, 1)

のとき，

P( | Z | ≦ a) = Φ(a) − Φ( − a) = 2Φ(a) − 1

ただし

Φ(a) =

∫

a

−∞

√ 1 2π e

⁻^x

2 2

dx.

(b)

有意水準

α

に対する

a

は，

1 − α = 2Φ(a) − 1

を解いて，

Φ(a) = 1 − α 2

(

a = NORM.S.INV(1 −

^α₂

)

(20)

有意水準

5%=0.05

ならば，

a = NORM.S.INV(0.975) = 1.96

である．

よって，

X

100

− Y

80

√ σ

²

( 1 100 + 1

80 )

≦ 1.96

が

95%

の確からしさで起きる．

(d) σ

²は

?

既知とすれば，たとえば，

σ

²

= 100

であれば，

X

100

− Y

80

√ 100

( 1 100 + 1

80 )

≦ 1.96

が

95%

の確からしさで起きる．

実際のデータでは

X

₁₀₀

− Y

₈₀

= 1000

であるから，(左辺) = 666.7となり，

1.96

よりはるかに大きい．

よって帰無仮説は棄却される＝平均寿命は異なる．

4.2.4.

一般に

(σ

²が既知のとき)

• X

群の標本数は

n

X，標本平均は

X = AVERAGE([x

の範囲])．

• Y

群の標本数は

n

Y，標本平均は

Y = AVERAGE([y

の範囲])

•

帰無仮説

H

0；X群と

Y

群の『真の平均値』は同じ

•

有意水準を

α

を決める

• X − Y

√ σ

²

( 1 n

X

+ 1 n

Y

)

> NORM.S.INV(1 −

^α₂

)

ならば，帰無仮説を棄却する（＝

X

群と

Y

群の平均値は同じでない）．

4.2.5.

有意水準

=

危険率

有意水準

0.05(5%)

で棄却するということは，5%しか起きないことが起き

ているので，帰無仮説は正しくないとすることである．したがって，『5%の誤り』を内包している．

(21)

4

17

4.2.6.

やってみよう

n

A

X

A

n

B

Y

B

α σ

²

| · · · | NORM.S.INV

棄却

100 220 200 219.6 0.05 1

100 220 200 219.6 0.1 1 100 220 200 219.6 0.01 1 100 220 200 219.7 0.05 1 100 220 200 219.7 0.1 1 100 220 200 219.7 0.01 1 100 220 200 219.76 0.05 1 100 220 200 219.76 0.1 1 100 220 200 219.76 0.01 1

絶対値は

ABS(x)

4.2.7. σ

²が未知の場合

• X

群の標本数は

n

X，標本平均は

X = AVERAGE([x

の範囲])．

• Y

群の標本数は

n

Y，標本平均は

Y = AVERAGE([y

の範囲

])

•

帰無仮説

H

₀；A群と

B

群の真の平均値は同じ

•

有意水準を

α

を決める

• t

X,Y

= X − Y

√

S

_XX

+ S

_{Y Y}

n

X

+ n

Y

− 2

( 1 n

X

+ 1 n

Y

)

とおく．ただし，

S

XX

=

n_X

∑

i=1

(X

i

− X )

²

= VAR.P([x

の範囲])

× n

X

S

Y Y

=

n_Y

∑

j=1

(Y

j

− Y )

²

= VAR.P([y

の範囲])

× n

Y

.

•

もし

| t

X,Y

| > T.INV.2T(α, n

X

+ n

Y

− 2)

ならば，帰無仮説を棄却する（＝

X

群と

Y

群の平均値は同じでない）．

4.2.8. What’s behind! — t-

分布

(a)

重要な事実：帰無仮説の下で

t

_X,Y は自由度

n

_X

+ n

_Y

− 2

の

t-分布に

従う．

(b) W

が自由度

n

の

t-分布に従うとは，

P(W ≦ a) =

∫

a

−∞

√ 1

n B(

ⁿ₂

,

¹₂

) 1

(1 +

^x_n²

)

ⁿ⁺¹²

dx = T

n

(a)

(22)

ただし，

B(a, b) =

∫

1 0

x

^a⁻¹

(1 − x)

^b⁻¹

dx.

グラフにしてみると

(c)

ならば，考え方は前と同じ．

P( | t

X,Y

| ≦ a) = T

n_X+n_Y−2

(a) − T

n_X+n_Y−2

( − a) = 2T

n_X+n_Y−2

(a) − 1

から，

1 − α = 2T

n_X+n_Y−2

(a) − 1

を解けばよい．この解

a

はエクセルの関数を用いて次のように求められる

;

a = T.INV(1 − α

2 , n

_X

+ n

_Y

− 2) = T.INV.2T(α, n

_X

+ n

_Y

− 2).

4.2.9.

例題

有意水準

0.01, 0.05, 0.1

X; 581, 700, 597, 534, 596, 582, 538, 588, 581, 539 Y; 543, 510, 580, 520, 506, 550

4.2.10.

やってみよう

有意水準

0.01, 0.05, 0.1

X; 53, 59, 51, 58, 57, 55, 53, 56, 54, 51, 54, 60 Y; 58, 57, 58, 60, 58, 56, 58, 57, 56, 55 4.3.

片側検定

4.3.1.

大小関係ありそうなときの検定

先の考察は『X工程の平均値=Y 工程の平均値』について判定した．たとえば，Y 工程の方が新鋭機械を使っているため，µ_X

≤ µ

_Y となっている可能性が高いと予想できたとしよう．このとき，σ²が既知の場合も未知の場合も，X

− Y ≤ 0

となっている可能性が高いと思われる．すなわち，X

− Y

は

0

を中心に対称に正負に散らばるのではなく，負側に偏っていることが予想される．ならば，

| X − Y | > a

を評価するよりも

X − Y > a

を評価したほうが精度が上がるはずである．

このような検定を片側検定と呼んでいる．なお，先のような絶対値の入った検定は両側検定と呼ばれている．

4.3.2.

検定の実行

(a)

帰無仮説『

H

0；

µ

X

= µ

Y』

(b) σ

²が既知の場合は

P

( X − Y

√ σ

²

( 1 n

X

+ 1 n

Y

) ≤ a )

= Φ(a) =

∫

a

−∞

√ 1 2π e

⁻^x

2 2

dx

(23)

4

19

という関係式を，

σ

²が未知の場合は

P

( X − Y

√ S

XX

+ S

Y Y

n

_X

+ n

_Y

− 2 ( 1

n

_X

+ 1 n

_Y

) ≤ a )

= T

n_X+n_Y−2

(a)

という関係式を用いる．それぞれの場合に応じて，有意水準

α

に対する

a (α

への依存を表すため

a(α)

と表記する)は

Φ(a) = 1 − α, T

_n_X_+n_Y₋₂

(a) = 1 − α

を解いて得られる

a(α) = NORM.S.INV(1 − α), a(α) = T.INV(1 − α, n

X

+ n

Y

− 2)

である．

データから得られる値をこの

a(α)

と比較して棄却するかどうかを決める；

X − Y

√ σ

²

( 1 n

X

+ 1 n

Y

) > a(α), X − Y

√ S

XX

+ S

Y Y

n

X

+ n

Y

− 2 ( 1

n

X

+ 1 n

Y

) > a(α)

ならば棄却する．

(24)

5.

差はあるのか

?—

独立性の検定

5.1.

サンドイッチの嗜好

5.1.1.

問題

男性，女性に好きなサンドイッチを選んでもらった結果次のようになった．

性別による嗜好の差があるといえるだろうか

?

卵サンドカツサンド野菜サンドハムサンド

男性

20 32 24 28

女性

28 18 30 20

※このような表をクロス集計表という．

5.1.2.

安直に

棒グラフを書いて比べてみる．

5.1.3.

もう少し説得力を

•

調査を受けた人は

200

人

(

男性

104

人，女性

96

人

)

∴

男性の割合は

104

200

，女性の割合は

96

•

卵，カツ，野菜，ハムが好きな人はそれぞれ

200 48，50，54，48

人

∴

卵，カツ，野菜，ハムが好きな人の割合はそれぞれ

48

200

，

50 200

，

54

200

，

48 200

•

もし『男女に嗜好の差がない』のなら，男性で卵サンドが好きな人は

200 × 104

200 × 48

200 = 24.96 (下図)

(25)

5

21

•

このときの差

24.96 − 20 = 4.96

が『嗜好に差がない』という仮定とのズレである．したがって，このような差の二乗の総和が

“

小さい

”

なら，『嗜好に差がない』という仮定を認められる．

5.2.

ピアソンの

χ

²

(カイ二乗)

独立性検定

5.2.1.

一般の場合

• M

種類のグループ

A

1

, . . . , A

M について，

N

種類の性質

B

1

, . . . , B

N

へのグループによる相関の違いがあるかどうかを調べる．

• n

個のサンプルデータをクロス集計表に整理する．

B

₁

B

₂

· · ·

B

_N

A

1

S

11

S

12

S

1N

.. .

A

M

S

M1

S

M2

S

M N

• p

i

= S

_i1

+ · · · + S

_iN

n , q

j

= S

_1j

+ · · · + S

_{M j}

n χ

²

=

∑

M i=1

∑

N j=1

(S

ij

− np

i

q

j

)

²

np

_i

q

_j とおく．

※ クロス集計表に小計セルと

p

_i

, q

_jセルを作るとよい．

B

₁

B

₂

· · ·

B

_N 計

p

_i

A

1

S

11

S

12

S

1N

S

₁^A

p

1

.. .

A

M

S

M1

S

M2

S

M N

S

_M^A

p

M

計

S

₁^B

S

^B₂

S

_N^B

q

j

q

1

q

2

q

N

•

有意水準を

α

に対し，

χ

²

> CHISQ.INV(1 − α, (M − 1)(N − 1))

ならば，確率

α

でしか起きない事象が起きている．

⇒ 棄却

=

グループ間に性質

B

の差はある．

5.2.2.

サンドイッチでは

M = 2，N = 4

である．クロス集計表を作って計算すると

χ

²

= 6.94

と

なる．

CHISQ.INV(0.9, 3) = 6.25，

(26)

CHISQ.INV(0.95, 3) = 7.81

，

CHISQ.INV(0.99, 3) = 11.3487

であるから，有意水準

0.1

ならば棄却されるが，有意水準

0.05

，

0.01

では棄却されない．

5.2.3. What’s behind!—カイ二乗分布

(a)

帰無仮説

A

₁

, . . . , A

_M と

B

₁

, . . . , B

_N は独立である．(グループ間に性質

B

の差はない)．

(b) n

が大きければ，

χ

²は自由度

(M − 1)(N − 1)

のカイ二乗分布に従う

(c)

自由度

k

のカイ二乗分布

P(χ

²

≦ a) =

∫

a 0

√ 1 2

^k

Γ(

^k₂

)

x

^k−2²

e

⁻^x

2 2

dx.

ただし，

Γ(y) =

∫

_∞

0

x

^y⁻¹

e

⁻^x

dx.

※ グラフを描いてみよう

(d)

有意水準

α

に対し，a

= CHISQ.INV(1 − α, k)

は，

P(χ

²

≦ a) = 1 − α

を満たす．

検定の枠組みに入った!

5.2.4.

やってみよう

春夏秋冬

10

代

25 48 33 28 30

代

35 35 27 36 50

代

40 28 43 22 5.3.

適合度検定

5.3.1.

問題

これまで卵サンド，カツサンド，野菜サンド，ハムサンドの売り上げの比は

3:2:3:2

であった．新規商品に置き換えて

1000

個を試験的に売り出したと

ころ，それぞれ

280，215，314，191

個売れた．以前通りの売り上げ比だといってよいだろうか?

5.3.2.

安直に

クロス集計表を拡張して見比べてみる;

(27)

5

23

卵カツ野菜ハム

280 215 314 191

予想比率

0.3 0.2 0.3 0.2

予想売上

300 200 300 200 5.3.3.

統計的手法

•

性質

B

₁

, . . . , B

_N の起きる割合が

p

₁

, . . . , p

_N となっているかどうかを調べる．

• n

個のサンプルについて，B_iの起きた度数を数え上げ，クロス集計表を作成する．

B

1

B

2

· · ·

B

N

X

₁

X

₂

X

_N

• χ

²

=

∑

N i=1

(X

_i

− np

_i

)

²

np

i

とおく．

※

N

が大きければ，χ²は自由度

N − 1

のカイ二乗分布に従う．

•

有意水準

α

に対し，

χ

²

≦ CHISQ.INV(1 − α, N − 1)

ならば，帰無仮説を棄却しない!＝起きる割合は

p

₁

, . . . , p

_Nであると考える．

※ 『棄却しない』ことが重要．

※ 推論としては弱い;『a²

= 4

とする．もし

a = 2

ならば，a²

= 4

である．

よって，a

= 2

である』という論法．

5.3.4.

サンドイッチの場合

N = 4

なので自由度は

3

．

χ

²

= 3.51

で，

CHISQ.INV(0.9, 3) = 6.25

CHISQ.INV(0.95, 3) = 7.81

CHISQ.INV(0.99, 3) = 11.34

なので，すべて棄却されない．

5.3.5.

やってみよう

これまで卵サンド，カツサンド，野菜サンド，ハムサンド，ミックスサンドの売り上げの比は

2:1:2:2:3

であった．新規商品に置き換えて

1000

個を試験的に売り出したところ，それぞれ

210，90，190，190，320

個売れた．以前通りの売り上げ比だといってよいだろうか?

(28)

6.

組み合わせで売れ行きは変わる

?—

交互作用の検定

6.1.

はじめに

豚骨ラーメン店で、スープの濃さが普通で大きなチャーシューを

2

枚載せたものが一番よく売れるのではないか、という話が出た。そこで実際二日にわたってスープの濃さ、チャーシューの量を変えて売り上げを調べてみたところ、次のような結果となった。

大

1

枚小

2

枚小

3

枚大

2

枚濃い

93 95 97 94

95 104 106 101

普通

93 97 107 120

92 91 95 115

薄い

94 97 99 104

100 94 101 107

さて、スープの濃さが普通で大きなチャーシューを

2

枚載せたものが一番よく売れるといえるだろうか？

6.2.

グラフでは

確かに、とくに売れるように見える。

数値で説明できるだろうか？

6.3.

分散分析—交互作用

6.3.1.

要因結果に影響を及ぼす二つの要因

A，B

を考える．それぞれを因子と

いう．

上の例では，スープが因子

A

であり，チャーシューが因子

B

となる．

6.3.2.

水準因子は，いくつかの値をとり，これを水準という．

上の例では，因子

A

は「濃い，普通，薄い」の

3

水準を，因子

B

は「大

1

枚，小

2

枚，小

3

枚，大

2

枚」の

4

水準をもっている．

(29)

6

組み合わせで売れ行きは変わる?—交互作用の検定

25

6.3.3.

データ因子

A

は

A

1

, . . . , A

aの

a

個の水準，因子

B

は

B

1

, . . . , B

bの

b

個の水準をもつとし，それぞれの水準の組み合わせで

r

回繰り返してデータをとったとする．このとき，

A

iかつ

B

jという組み合わせでのデータは，

x

ij1

, x

ij2

. . . , x

ijr

の

r

個である．

6.3.4.

データ平均

次のように定義する．

x

i••

= 1 br

∑

b j=1

∑

r k=1

x

ijk

(A

i水準のデータの平均値)

x

_•j•

= 1 ar

∑

a i=1

∑

r k=1

x

ijk

(B

j水準のデータの平均値)

x

ij•

= 1 r

∑

r k=1

x

ijk

(A

i

× B

j水準のデータの平均値)

x

_•••

= 1 abr

∑

a i=1

∑

b j=1

∑

r k=1

x

ijk

(全データの平均値)

6.3.5.

平方和

S

A×B

= r

∑

a i=1

∑

b j=1

(x

ij•

− x

i••

− x

_•j•

+ x

_•••

)

²

S

e

=

∑

a i=1

∑

b j=1

∑

r k=1

(x

ijk

− x

ij•

)

² とおく．

6.3.6.

平均平方

ϕ

A×B

= (a − 1)(b − 1), ϕ

e

= ab(r − 1) V

_A_×_B

= S

A×B

ϕ

_A_×_B

, V

_e

= S

e

ϕ

_e と定める．

6.3.7.

帰無仮説『交互作用効果はない』

講義用ノート | ( 平成 29 年度夏学期 )| ビジネス統計学

(

29

)

—

—

(

) (

29

5

17

)

i

(http://www.stat.go.jp/teacher/c2epi1.htm

•

“国勢調査”=国の実情を知る…徴兵，徴税，福祉

statistics (英) ⇐ statistik (独) ⇐ status (ラテン=国家・状態)

IBM

•

ICT

♢

(1956-1742)

♢

(1820-1910)：戦死者・傷病者のデータ解析により，治療・

(見やすい円グラフ)．

•

(データ) = (真の値) + (誤差)

♢

(年金論→保険数理)

♢

(天然痘の罹病率，死亡率→数理疫学)

♢

(

)

PC

http://www.artsci.kyushu-u.ac.jp/

se2otngc/

Contents

1

1

1.1

. . . . 1 1.2

. . . . 3

2

4

2.1

. . . . 4 2.2

. . . . 6

3

10

3.1

. . . . 10 3.2

. . . . 11 3.3

. . . . 12

4

14

4.1

. . . . 14 4.2

. . . . 15 4.3

. . . . 18

5

20

5.1

. . . . 20

5.2

χ

(カイ二乗)

. . . . 21

5.3

. . . . 22

6

24

6.1

. . . . 24

6.2

. . . . 24

6.3

. . . . 24

1

1